Reconnaissance de critères de comparabilité dans un corpus multilingue spécialisé
نویسندگان
چکیده
RÉSUMÉ. Notre objectif est d’automatiser la construction de corpus comparables spécialisés à partir du Web. La comparabilité se base sur trois niveaux : le domaine, le thème et le type de discours. Le domaine et le thème peuvent être filtrés grâce aux mots-clés utilisés lors de la recherche. Nous présentons dans cet article la reconnaissance automatique du type de discours dans des documents spécialisés français et japonais, qui nécessite une analyse linguistique poussée. Une analyse contrastive des documents nous permet de déterminer quelles informations paraissent discriminantes. En s’inspirant des travaux classiques de recherche d’information, nous créons une typologie robuste et linguistiquement motivée basée sur trois niveaux d’analyse : structurel, modal et lexical. Cette typologie nous permet d’apprendre des modèles de classification qui donnent de bons résultats, ce qui montre l’efficacité de cette typologie.
منابع مشابه
Comparabilité de corpus et fouille terminologique multilingue
RÉSUMÉ. Les principaux travaux en fouille textuelle privilégient communément la taille du corpus sur sa qualité. Ainsi dans le cadre de l’alignement lexical à partir de corpus comparables, les meilleurs résultats sont obtenus pour des corpus de grande taille (plusieurs millions de mots). Pour les domaines de spécialité, et pour de nombreuses paires de langues, il n’est pas possible de disposer ...
متن کاملMultilingual Compound Splitting (Segmentation Multilingue des Mots Composés) [in French]
Résumé La composition est un phénomène fréquent dans plusieurs langues, surtout dans des langues ayant une morphologie riche. Le traitement des mots composés est un défi pour les systèmes de TAL car pour la plupart, ils ne sont pas présents dans les lexiques. Dans cet article, nous présentons une méthode de segmentation des composés qui combine des caractéristiques indépendantes de la langue (m...
متن کاملExpansion de requêtes pour la recherche d'information multilingue
1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...
متن کاملUne méthode d'évaluation de la pertinence des pages Web dans WebSum
Ce travail s’inscrit dans le cadre du projet de recherche WebSum qui est un système de résumé automatique de pages Web offrant un moyen de visualisation rapide et structuré des réponses retournées par un moteur de recherche suite à une requête utilisateur. Afin de produire le résumé, WebSum procède par le classement des réponses récupérées depuis un moteur de recherche (Google) par ordre de per...
متن کاملExtraction de Caractéristiques Locales: Crêtes et Pics
Résumé— Cet article présente une méthode pour détecter des caractéristiques de type pic et crête dans une image. Ces caractéristiques seront utilisées pour la modélisation et la reconnaissance d’objets. Un point de type crête ou pic est caractérisé localement par des propriétés géométriques de la conique tangente à la surface-image. Deux critères sont utilisés dans notre approche d’extraction: ...
متن کامل